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基于 DRN 和 FasterR-CNN 融合 模型 的 行为 识别 算法 
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摘 要 : 针对 传统 单 人 行为 识别 算法 易 受 行人 形态 多 样 性 、 背 景 和 光照 等 影响 的 问题 进行 了 研究 。 基 于 扩张 卷 积 残 差 
网 络 DRN 在 分 类 效果 及 目标 检测 网 络 Faster R-CNN 在 目标 追踪 方面 的 准确 性 ， 提 出 了 一 种 DRN 和 Faster R-CNN 的 
融合 网 络 模型 。 该 模型 在 Faster R-CNN 中 融入 DRN 的 扩张 卷 积 残 差 块 代替 原来 的 一 般 卷 积 层 部 分 。 并 对 融合 模型 进 
行 了 两 方面 的 改进 : 在 每 一 层 前 面 添 加 一 个 batch normalization /& ; 用 三 层 扩 张 卷 积 残 差 块 代 替 部 分 两 层 残 差 块 。 实 验 
结果 表明 三 种 融合 网 络 识别 算法 在 Olympic sports dataset 数据 库 上 较 其 他 行为 识别 算法 取得 了 更 高 的 mAP。 其 中 ， 包 
含 三 层 扩张 卷 积 残 差 块 的 融合 模型 识别 性 能 最 好 ，mAP 达到 78.996. 
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Behavior recognition algorithm based on DRN and Faster R-CNN fusion model 


Yang Nan, Yang Shen, Du Neng 
(School of Information Science & Engineering, Wuhan University of Science &Technology, Wuhan 430081, China) 


Abstract: Due to the traditional single person behavior recognition algorithm is easily affected by the diversity, background and 
illumination of pedestrians. Based on the accuracy of convolution residual network DRN in classification and detection network 
Faster R-CNN in target tracking, we proposes a fusion network model composed of DRN an Faster R-CNN. The model is 
integrated with dilated convolution residual in Faster R-CNN to replace the original convolution layer. We also made two 
improvements to the fusion model, add a Batch Normalization layer in front of each layer; Used three levels of dilated 
convolution residual blocks instead of partial two levels of residual blocks. The experimental results show that the three fusion 
network recognition algorithms proposed in this paper have achieved a higher mAP than other behavior recognition algorithms 
on the Olympic Sports Dataset database. Among them, the fusion model with three layers of convolution residual blocks has the 
best recognition performance, and mAP achieves 78.995. 
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E" 策 树 、 支 持 向 量 机 (support vector machine, SVM) 659 等 。 传 统 的 

0 引言 行为 识别 算法 采用 提取 特征 再 利用 分 类 器 进行 分 类 ， 存 在 提取 
近 些 年 来 ， 人 体 行为 识别 在 智能 视频 监控 、 视 频 检索 和 人 特征 不 全 面 ， 人 力 消耗 过 大 等 问题 。 

机 交互 等 多 种 应 用 中 引起 了 广泛 的 关注 趾 。 目 前 国内 外 对 人 体 近 几 年 ， 卷 积 神经 网 络 已 经 广泛 应 用 于 图 像 分 类 和 目标 识 


行为 识别 都 投入 了 大 量 研究 ， 也 取得 了 一 定 进展 ， 但 复杂 的 背 ” 别 等 任务 中 。 在 ImageNetILSVRC 中 的 图 像 分 类 比赛 中 ，2012 


景 、 照 明 变 化 、 外 观 差异 和 运动 行为 繁杂 等 因素 使 得 人 体 行为 


年 由 Krizhevsky 等 人 中 实现 的 AlexNet 45541 


经 网 络 以 16% 的 


识别 成 为 具有 挑战 性 的 任务 ， 所 以 目前 行为 识别 的 准确 度 并 不 错误 率 夺 得 比赛 的 冠军 ， 并 使 得 卷 积 神经 网 络 在 计算 机 视觉 领 
能 满足 实用 化 的 需求 。 学 者 们 提出 了 多 种 行为 识别 算法 ， 其 中 域 受 到 广泛 的 关注 。 在 之 后 的 比赛 中 ， 各 类 卷 积 神经 网 络 层 出 
基于 机 器 学 习 的 方法 吸引 了 广泛 的 关注 口 。 不 穷 , 由 He 等 人 四 实现 的 残 差 网 络 (ResNeD 则 是 ILSVRC2015 

针对 行为 识别 的 研究 ， 传 统 的 机 器 学 习 算法 一 般 由 特征 提 的 冠军 模型 ，ResNet 的 跳跃 式 链 接 能 有 效 解决 较 深 网 络 中 “ 退 
取 和 行为 分 类 两 个 部 分 组 成 ， 常 见 特 征 提取 算法 有 LBP(local ”化 ”的 问题 。 扩 张 残 差 网 络 (dilated residual networks, DRN) P11 
binary patterns), HOG(histogram of oriented gradients)B] 和 是 在 ResNet 的 基础 上 结合 了 扩张 卷 积 (dilated convolutions) 的 算 
SIFT(scale-invariant feature transform) 几 等 ,常见 的 分 类 器 则 有 决 法 ,该 算法 通过 增 大 卷 积 的 感受 野 (receptive field) 从 而 达到 替代 
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池 化 层 的 目的 ， 在 维持 原 网 络 的 感受 时 不 变 的 同时 又 不 会 损失 
图 像 空 间 的 分 辩 率 ， 从 而 能 够 最 大 限度 的 保留 输入 图 像 中 的 细 
节 信息 。 目 标识 别 任务 则 可 以 划分 为 目标 的 追踪 和 行为 的 分 类 
两 部 分 ， 传 统 基于 机 器 学 习 的 行为 识别 算法 一 般 没 有 进行 目标 
的 追踪 , 而 是 直接 对 行为 进行 分 类 , 如 依据 时 间 、 空 间 建 模 000 
直接 对 待 测 行为 进行 识别 ， 人 为 提取 行为 特征 再 调用 分 类 器 进 
行 分 类 [2;， 文献 [13] 采 用 HOG+CNN 进行 特征 的 提取 ， 并 通过 
时 间 排 序 结合 支持 向 量 机 (TOIHSVMD 进 行 行为 分 类 。 目 前 ， 将 
目标 的 追踪 和 分 类 同时 进行 的 算法 在 各 种 数据 库 中 取得 了 前 所 
未 有 的 成 果 [4171。 由 Girshick 等 人 M5 提出 的 基于 R-CNN(regions 
with CNN) 目 标 检测 算法 将 目标 检测 的 平均 分 类 精度 由 34.3% 
提升 到 66%。 但 R-CNN 训练 步骤 较为 复杂 , 且 测 试 时 间 较 长 。 
针对 这 些 问题 ， 研 究 人 员 相 继 提 出 了 Fast R-CNNU, Faster R- 
CNN07 等 算法 ,这 两 种 算法 采用 卷 积 神经 网 络 来 进行 目标 的 追 
踪 和 分 类 , 不 仅 解决 了 R-CNN 算法 的 检测 耗 时 较 长 的 问题 , 而 
且 有 效 提升 了 目标 检测 的 平均 分 类 精度 (mean average precision, 
mAP)。 本 文 结合 DRN 在 分 类 任务 上 的 准确 性 以 及 Faster R- 
CNN 在 目标 追踪 上 的 精确 度 , 融合 成 一 个 新 的 网 络 模型 完成 行 
为 识别 任务 。 


1 — 深度 卷 积 神经 网 络 模型 


CNN 在 普通 神经 网 络 的 基础 上 , 添加 了 能 够 实现 卷 积 操作 
的 卷 积 层 和 进行 降 采 样 的 池 化 层 。 在 卷 积 层 中 ， 每 一 个 神经 元 
只 与 上 一 层 的 部 分 神经 元 相连 。 每 一 个 卷 积 层 通常 包含 多 个 滤 
波 器 ， 即 特征 平面 ， 每 个 滤波 器 包含 n*n 个 神经 元 ，n 为 大 了 
等 于 1 的 数 ， 对 于 上 一 层 输入 网 络 ， 经 过 每 个 滤波 器 的 神经 元 
EERE, 该 权 值 即 为 卷 积 核 . 下 面 简 要 介绍 DRN 网 络 和 Faster 
R-CNN 网 络 的 模型 结构 。 
1.1 DRN 网 络 

DRN 是 残 差 网 络 (ResNeb 的 一 种 变 体 。ResNet 是 由 何 恺 明 
等 人 实现 的 一 种 特殊 的 残 差 网 络 ， 即 跳跃 链接 型 网 络 。 随 着 神 
经 网 络 的 深度 不 断 加 深 ， 模 型 的 学 习 能 力 会 在 某 个 深度 达到 稳 
定 ， 继 续 增加 模型 的 层 数 时 ， 模 型 前 面 一 个 细小 的 改变 都 会 在 
模型 后 面 引 起 很 大 的 变化 ， 即 会 出 现 “ 梯 度 消失 ”或 “梯度 爆 
炸 ” 现 象 , 此 外 , 还 会 产生 “退化 ”问题 , 即 网 络 层 数 很 深 时 ， 
其 学 习 能 力 不 仅 不 会 提升 反而 下 降 ， 此 时 训练 准确 率 和 测试 准 
确 率 均 在 下 降 ， 深 度 网 络 就 变 得 难以 训练 了 ， 且 这 种 学 习 能 
的 下 降 与 过 拟 合 无 关 。 针 对 所 谓 的 “退化 ”问题 ， DRN 提出 一 
种 Residual 结构 ， 如 图 1 所 示 。 图 中 给 出 了 一 个 两 层 的 残 差 学 
习 模 块 ， 即 一 个 Residual 的 结构 中 含有 两 层 卷 积 层 ， 其 中 x 为 
输入 ，relu 为 线性 整流 函数 (Rectified Linear Unit, Relu), HK 
为 修正 线性 单元 , 是 机 器 学 习 中 较为 普遍 的 激活 函数 Cactivation 
function) 5, pires x Ho) Hi FOA F()9x. 

DRN 在 ResNet 的 基础 上 加 入 了 扩张 卷 积 的 思想 ， 通 过 扩 
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表示 扩张 为 1 的 卷 积 ， 与 普通 卷 积 操 作 无 异 ，(b)(c) 分 别 表示 扩 
张 为 2 和 4 的 卷 积 操作 。 由 于 扩张 卷 积 可 以 代替 池 化 层 ， 该 算 
法 在 增 大 卷 积 感受 野 的 同时 能 保持 输出 与 输入 尺寸 一 致 ， 从 而 
能 够 最 大 限度 的 保留 输入 图 片 中 的 细节 信息 ,使 DRN 较 ResNet 
在 图 片 分 类 上 的 性 能 有 了 一 定 的 提升 。 


F(x) relu X 


(a) (b) (c) 


图 2 扩张 卷 积 实现 过 程 


1.2 Faster R-CNN 

针对 R-CNN 和 Fast R-CNN 中 selective search 算法 生成 目 
标 建议 框 的 速度 问题 ，Faster R-CNN 引入 了 区 域 建议 网 络 
(region proposal network, RPN) 代 蔡 Selective Search 算法 用 于 生 
成 目标 建议 框 03， 极 大 地 提升 了 目标 建议 框 的 生成 速度 。 该 部 


分 的 网 络 结构 如 图 3 所 示 。 


rpn_cls_score 
rpn_cls_score_reshape rpn_bbox_pred 


Y Y 


rpn loss cls rpn loss bbox 


rpn data 


rpn cls prob 


Y 


rpn cls prob reshape 


图 3 RPN 网 络 结构 
RPN 网 络 进行 第 一 个 卷 积 操作 之 前 ,在 输入 的 每 个 点 上 都 
成 三 种 尺寸 、 三 种 比例 的 anchor， 每 个 anchor 在 原 图 对 应 9 
目标 框 。 然 后 ， 原 图 得 到 的 9 个 目标 框 在 图 片上 以 步 长 为 16 
扫描 全 图 ， 每 步 都 得 到 9 个 目标 框 ， 扫 描 结 束 后 得 到 的 全 部 目 


^ 5 


张 卷 积 可 以 在 实现 与 原 网 络 中 一 致 感受 野 的 同时 保持 输出 尺寸 
与 输入 一 致 ， 且 无 须 经 过 池 化 操作 。 实 现 过 程 如 图 2 所 示 ，(a) 


标 框 数量 一 般 在 2 万 ~4 万 。 剔 除 跨越 边界 的 目标 框 ， 剩 下 的 
6000~10000 个 目标 框 作 为 目标 建议 框 带 入 RPN 网 络 中 进行 训 
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练 。 然 后, 将 输入 特征 带 入 RPN 网 络 开始 运算 ， 第 一 个 卷 积 
采用 512 个 3*3 的 滤波 器 ， 步 长 为 1， 填 充 为 “SAME” ， 此 时 
能 保持 输入 和 输出 尺寸 一 致 , 激励 函数 为 Relu。“rpn_cls_score” 
和 “rpn_bbox_pred” 为 两 个 全 连接 层 ， 分 别 输出 目标 框 在 前 景 
目标 上 的 得 分 和 在 回归 信息 。 两 个 包含 “reshape” 的 层 为 维度 
转换 层 , 能 根据 需要 将 输入 的 维度 进行 变换 。“rpn_cls_prob” 层 
为 一 个 softmax 层 。“proposal” 为 目标 框 生 成 层 ， 该 层 中 剔除 跨 
越 边 界 的 目标 框 ， 通过 非 极 大 值 抑制 Caon-maximum 
suppression, NMS)[19] 结 合 目标 框 前 景 得 分 筛选 部 分 目标 框 , 最 
后 通过 目标 框 的 回归 信息 得 到 RPN 网 络 给 出 的 目标 建议 框 
后 选取 256 个 目标 建议 框 作为 RPN 网 络 的 输出 。 

*rpn loss_cls” 和 “rpn loss_bbox” 分 别 对 应 于 RPN 网 络 
的 得 分 损失 值 和 回归 损失 值 。 将 得 分 损失 和 回归 损失 按 一 定 的 
权重 相 加 即 为 RPN 网 络 的 损失 ， 其 损失 函数 的 定义 为 : 
1 


Ml 


: 


最 


1 « * * 
L([ p; ht D= 2a Pi Pi )*À Yo Leltot, ) (1) 


ds i rg i 


其 中 : i 为 anchor 的 索引 ，4 为 10，p; 表示 网 络 对 索引 为 i 的 


anchor 对 应 目标 框 预 测 为 目标 的 概率 值 。 p; 是 正确 标注 
(Ground Truth,GT) 目 标 框 的 概率 , 只 能 为 0 或 1, 车 该 目标 框 为 
前 景 目 标 ，p; 为 1; 若 该 目标 框 为 背景 ，p; 为 0。 坟 为 一 个 向 
量 ， 表 示 预 测 目标 框 左 上 角 和 右 下 角 四 个 坐标 值 ， 女 为 GT H 
标 框 左上 角 和 右 下 角 的 四 个 坐标 值 。 式 (1) 中 ， 分 类 损失 La 
( D D; ) 是 目标 和 非 目 标的 对 数 损失 ， 其 损失 函数 公式 为 

Lal Po p; )7-logl p; p, * (1- p; )(1- p,)] Q) 
日 损失 Lus (1,1 ) 表 达 式 如 下 : 


回 


lu 


L (t )=R(t -E ) 6) 


reg 


其 中 : R(x) 是 文献 [13] 中 定义 的 鲁 棒 损失 函数 , 其 表达 式 如 下 : 


0.5x? 
|x] —0.5 


if |x| <1 


otherwise 


smooth (x)= | (4) 


2 &T DRN 5 Faster R-CNN 融合 模型 的 行为 识别 

算法 
2.1 数据 预 处 理 

本 文采 用 Olympic sports dataset 数据 库 ， 该 数据 库 于 2010 
年 由 斯 坦 福 大 学 发 布 ， 分 为 篮球 、 举 重 、 长 跑 等 十 六 类 体育 运 
动 ， 其 中 每 一 类 有 50 个 视频 ， 部 分 示例 见 图 4。 本 文 在 彩色 数 
库 中 挑选 5000 幅 图 像 并 进行 GT 目标 框 标 注 , 同时 将 这 些 图 
像 左 右 翻 转 得 到 5 000 张 同样 含有 GT 目标 框 的 镜像 图 像 。 将 
这 10 000 幅 图 像 作 为 训练 集 。 从 原 彩色 数据 库 中 另外 挑选 2000 
像 作为 交叉 验证 集 ，5000 幅 作为 测试 集 。 在 通过 交叉 验证 
调整 超 参数 及 测试 集 检测 训练 结果 时 无 须 对 目标 框 的 位 置 进 
验证 ， 只 需 检 测 行为 识别 的 准确 性 ， 因 此 交叉 验证 集 和 测试 
须 手 动 标注 GT 目标 框 。 
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图 4 Olympic sports dataset 数据 库 示 例 

2.2 融合 网 络 结构 
5 给 出 了 融合 的 网 络 模型 ， 该 融合 模型 中 橘 黄 色 部 分 与 
1.2 节 Faster R-CNN 模型 中 的 RPN 网 络 一 致 。 金 色 框 部 分 的 
"Roi data” 层 存储 了 RPN 网 络 对 输入 图 片 推荐 的 感 兴趣 区 域 
(Region of Interest, Roi)。“ Roi_pool5” 为 Faster R-CNN 网 络 中 


提 到 的 感 兴趣 区 域 (Region of Interest, Roi) 池 化 层 ， 其 主要 作用 
是 将 全 连接 层 的 输入 尺寸 调整 一 致 ， 都 为 7*7。 


| 


四 


图 5 融合 网 络 结构 
融合 模型 中 的 虚线 框 为 融合 模型 的 主体 , 即 Fast R-CNN 部 


分 ， 本 文采 用 DRN 网 络 来 代替 原 Faster R-CNN 中 所 用 的 
VGG16 [925029], HF Roi 池 化 层 可 以 将 所 有 通过 该 层 的 尺寸 
变 为 一 致 ， 所 以 该 网 络 的 输入 图 像 不 唯一 。 蓝 色 部 分 第 一 层 为 
7X7 的 卷 积 层 ， 填 充 (padding) 为 2， 步 长 (stride) 为 2，16 代表 
用 于 该 层 中 卷 积 的 滤波 器 个 数 ， 由 于 步 长 为 2， 输 入 经 过 该 卷 
积 层 后 尺寸 变 为 原来 的 一 半 ， 融 合 进来 的 DRN 网 络 ， 除 去 第 
一 层 为 一 个 单独 的 卷 积 层 和 前 半 部 分 的 三 个 池 化 层 外 ， 其 余 的 
部 分 皆 为 2 层 的 扩张 卷 积 残 差 块 ， 其 结构 如 图 1 所 示 ， 所 有 的 
扩张 卷 积 残 差 块 中 两 层 卷 积 层 皆 为 3*3 的 滤波 器 , 步 长 都 为 1， 
填充 皆 为 “SAME” 方 式 。 卷 积 层 的 滤波 器 个 数 以 及 卷 积 层 中 的 
扩张 值 不 一 致 。 图 5 中 蓝 色 部 分 第 二 层 中 “DR1” 代 表 该 模型 
中 的 第 一 个 扩张 卷 积 残 差 块 ， 每 个 扩张 卷 积 残 差 块 丝 由 两 个 扩 
张 卷 积 层 组 成 , 数字 16 为 滤波 器 数量 , 两 个 卷 积 层 的 滤波 器 个 
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采 


Z7: 


数 都 为 16, 1 表示 扩张 值 , 两 个 卷 积 层 的 扩张 值 为 1, 即 图 2 所 
] 1-dilated 的 处 理 方式 。 下 面 各 层 的 扩张 卷 积 残 差 块 中 


数字 含义 相同 。 该 模型 中 “pooll1”,“pool2”,“pool3” 是 三 个 相 


同 的 最 大 值 池 


化 层 ， 池 化 层 


张 为 2 或 者 4 METR, H 


党 


化 层 后 全 部 为 扩张 卷 积 残 差 块 , 无 池 化 层 或 其 他 层 。 在 第 12 个 
扩张 卷 积 残 差 块 之 后 的 2 个 全 链 


Z 


En RETE, AD 


ROGERUS 2*2, 29S 2. HERH 
的 方式 为 “SAME ”， 经 过 池 化 层 后 的 输出 尺寸 为 输入 的 一 半 。 


在 第 三 个 池 化 层 之 后 ， 即 从 第 7 个 扩张 卷 积 残 差 块 开始 采用 
2(bj(c) 中 所 示 ， 扩 张 卷 积 增 大 了 感 
尺寸 的 不 断 减 小 ， 因 此 第 3 个 池 


0 图 


PET 


VGG16 后 面 的 全 连接 


3 


过 拟 合 。 
A, 


连接 层 之 后 连接 一 个 dropout 


So p 


|i Faster R-CNN 模型 中 
经 元 个 数 都 为 4096, 


且 在 全 


E 上 


J 以 减轻 网 络 模型 对 训练 集 的 


£17 


于 本 文 行为 识别 的 类 别 共 16 类 ， 加 上 背景 一 
因此 “cls_score” 全 连接 层 种 共 17 个 神经 元 , "cls prob" 
为 一 个 softmax 分 类 函数 ， 输 出 


标 属 于 17 种 类 别 的 概率 。 


“bbox pred” 全 连接 层 中 含有 


68 ^ 经 元 ， 即 


标 对 应 于 17 


种 类 别 的 目 


PRHE RS JE 


归 信 息 。 


式 与 原 Faster R-CNN 网 络 模型 中 一 致 。 


2.3 ”融合 网 络 训练 


本 文 的 融合 模型 采 ) 


JYI 


a) 单 独 训练 RPN 网 络 。 该 部 分 反 向 传播 采 /) 
(momentum)， 本 次 RPN 网 络 训练 总 的 迭代 次 数 为 30000 次 ， 
学 习 率 衰减 系数 为 0.1, FIKEI 
IAMEANUCBUR] 20 000 的 时 候 ， 将 学 习 率 乘 以 衰减 系数 ， 得 到 新 


的 学 习 率 为 0.0001. RH 


b) 将 第 一 步 中 训 


该 融合 网 络 中 其 他 部 分 的 连 


PEUT 


练 的 方式 对 整个 模型 进行 训练 。 


动量 法 


成 设置 在 第 20000 次 迭代 ， 即 


原 Faster R-CNN 网 络 中 训练 好 的 RPN 
网 络 作为 本 文 融合 模型 中 RPN 网 络 参数 的 初始 值 。 


入 融合 网 络 的 DRN 
损失 函数 见 式 (1)。 


于 RPN 网 络 部 分 , 其 模型 达到 


ü 


f&, momentum 系数 为 0. 


网 络 部 分 ， Jf5 


练 RPN 网 络 后 输出 的 256 个 目标 建议 框 带 
和 独 训练 该 部 分 。 该 网 络 的 
于 融合 模型 DRN 网 络 部 分 的 复杂 度 远大 
改 敛 更 加 不 易 ， 因 此 总 迭代 次 数 
为 60000 次 , 学 习 率 衰减 系数 为 0.1, 设置 在 第 50000 KA 


9, 采用 均值 和 方差 分 别 为 0 和 0.0001 


的 截断 正 态 分 布 中 的 随机 值 作为 初始 值 。 


co) 微调 融合 模型 中 的 RPN 网 络 部 分 , 并 且 使 融合 网 络 中 的 


RPN 网 络 部 分 和 Fast R-CNN 网 络 间 


虚线 框 部 分 的 第 


个 普通 卷 积 层 到 入 


dd) 微调 融合 模型 中 下 


ast R-CNN 网 络 部 分 的 全 链接 


保持 融合 网 络 中 的 RPN 
卷 积 层 。 


3 ”改进 的 融合 模型 


本 章 针 对 融合 模型 可 和 


了 分 共享 卷 积 层 ， 即 
12 个 扩张 卷 积 残 差 块 。 


图 5 中 


层 , 同样 


网 络 部 分 和 Fast R-CNN 网 络 部 分 共享 


CC 


问题 进行 了 两 方面 的 改进 。 


3.1 


当 网 络 的 


的 现象 。 且 会 影响 网 络 模型 后 面 


添加 BN 层 的 融合 模型 


出 现 的 “梯度 消失 ”和 “梯度 爆炸 ” 


导数 很 深 时 , 会 出 现 “ 梯 度 消散 ”或 “梯度 爆炸 ” 
层 的 数据 分 布 ， 在 网 络 的 训练 


中 ， 若 模型 中 的 数据 分 布 每 次 都 不 同 ， 网 络 就 需要 不 断 的 去 拟 


合 新 的 分 布 ， 导 致 网 络 的 训练 速度 过 慢 。 批 量 


归 一 化 (Batch 


Normalization,BN) 可 以 有 效 的 预防 这 个 问题 [26]。 其 原理 即 在 深 


度 网 络 模型 的 每 一 
式 如 下 : 


=i 
ZN 


eps x WARK batch) IB LAM Lg 为 输入 均 人 


为 方差，E 为 一 个 很 


之 前 添加 一 个 可 以 学 习 的 归 


小 的 固定 数 ， 本 文 取 0.0001 


新 输入 ， y 为 该 BN 层 的 输出 ，Y 和 都 是 该 


的 参数 。 在 测试 阶段 


jm 


层 的 输出 为 


y yE|x 


> BN 


其 中 : 


Var|x] 十 


m 
S 

m 

Ea 
+ 
m 


篇 估计 ， 其 他 参 


数 含义 与 式 (5) 中 一 致 。 在 图 


中 ， 虚 线 框 部 分 各 层 


前 


卷 积 层 前 添加 一 个 


BN 


中 ， 两 个 卷 积 层 的 前 
每 个 网 络 层 前 面 同样 


添加 BN 层 。 


3.2 包含 三 层 残 差 块 的 融合 模型 


原 融 合 模型 中 扩 


看 添加 一 个 BN 层 ， 即 全 链接 层 和 普通 
层 , 在 DR1 至 DR12 的 扩张 卷 积 残 差 块 
罩 也 添加 一 个 BN 层 。 对 于 RPN 网 络 部 分 


一 化 层 ， 表 达 


G) 


2 
, O5 


«ox, 为 第 ;个 


慨 中 需要 学 习 


(6) 


EJK] ffl Var[x] 4r 9335) P BUG HECUCÉE He 的 均值 和 op 


5 的 融合 模型 


张 卷 积 残 差 块 


包含 两 层 卷 积 层 ,对 应 图 4.1 


中 DRI 至 DR12 部 分 .文献 [9] 提 出 了 一 种 包含 三 


层 卷 积 层 的 扩 


张 卷 积 残 差 块 ， 结 构 如 图 6 所 示 。 图 中 的 x 为 输入 ，relu 为 斜 
坡 函数 。 映 射 函 数 与 两 层 的 扩张 卷 积 残 差 块 一 致 ， 为 F(x)+x。 
本 文采 用 的 三 个 卷 积 层 尺 寸 固定 ， 第 一 个 和 第 三 个 卷 积 层 的 尺 
寸 为 1*1， 其 扩张 值 为 1。 第 二 个 卷 积 层 的 尺寸 为 3*3， 扩 张 值 
不 固定 。 三 个 卷 积 层 的 滤波 器 个 数 不 固 定 ， 步 长 为 1， 填 充 全 
部 采用 “SAME” 方 式 。 三 层 扩 张 卷 积 残 差 块 在 网 络 层 数 很 深 的 
时 候 效 果 优 于 两 层 扩张 卷 积 残 差 块 。 

[x] 

BN/ 卷 积 层 

WAE X 

Pod relu 
MERE 
FOO+X O 
图 6 三 层 的 扩张 卷 积 残 差 块 


将 图 5 中 虚线 框 部 分 DR1 至 DR6 蔡 换 为 三 层 扩 张 卷 积 残 


差 块 ,“pool3” 层 后 


看 的 残 差 块 保持 不 变 , 仍 为 两 


层 扩 张 卷 积 残 
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差 块 。 由 于 部 分 两 层 残 差 块 替换 为 三 层 残 差 块 ， 加 深 了 网 络 模 
型 ， 因 此 需要 添加 BN 层 ， 即 网 络 各 层 前 面 增加 一 个 BN 层 。 
4 ”实验 结果 与 分 析 
4.1 融合 网 络 

本 次 实验 在 GPU 版 本 的 tensorflow 上 执行 , 该 融合 模型 的 


过 该 


€ 


训练 共 耗 时 约 3 天 左右 。 得 到 训练 好 的 模 
图 片 带 入 到 训练 好 的 模型 中 测试 其 行为 识别 1 
型 之 后 得 到 多 个 目标 框 及 其 在 某 一 个 
1B)[E 73 0.7 的 NMS 剔除 掉 多 余 目 标 框 后 


模 


0.8 的 目标 框 。 示例 图 片 识别 效果 如 下 图 。 两 


尺寸 不 一 致 ， 图 


标记 出 来 ， 同 时 出 了 篮球 行为 的 标签 及 概率 


8 尺寸 为 480*360， 折 链球 行为 


记 出 来 ， 然 而 该 图 中 的 其 他 人 在 16 类 行为 


0.8, 


的 mAP， 并 与 基于 该 数据 库 的 其 他 行为 识别 算法 比较 ， 


天 


此 这 些 人 物 未 被 标记 出 来 。 


图 8 掷 链球 行为 识别 示例 


7 尺寸 为 600*450， 两 名 篮 : 


型 之 后 ， 将 部 分 示例 


生 能 ， 示 例 图 片 通 
类 别 上 的 得 分 ， 采 
保留 每 类 概率 大 于 
张 输入 的 示例 图 片 
球 运 动员 被 红色 框 
值 ， 即 置信 度 。 图 


的 概率 大 于 闵 值 0.8， 同 样 被 标 


上 的 概率 未 能 


检测 完 示例 图 片 的 识别 效果 之 后 ， 通 过 


测试 集 计 算 该 模型 


结果 如 


inaXiv 合 作 期 


SL P" 
X A, 等: 基于 DRN 和 FasterR- ud 融合 模型 的 行为 识别 算法 


融合 模型 77.2% 


4.2 改进 的 融合 模型 与 原 融合 模型 对 比 

对 两 种 改进 的 融合 模型 采用 同样 的 方式 进行 训练 ， 除 改进 
部 分 外 ， 其 余 的 参数 与 原 融 合 模型 一 致 ， 在 相同 的 测试 集 计算 
其 mAP 并 进行 对 比 。 表 2 给 出 了 实验 对 比 结果 。 


表 1 所 示 。 由 表 中 可 以 看 出 ， 本 文 提 出 的 融合 模型 在 检测 指标 
mAP 上 高 于 其 他 行为 识别 算法 、 原 Faster R-CNN 模型 及 采用 
本 文 所 用 数据 库 的 YOLOP9 和 SSDP7 算 法 。 
表 1 本 文 算法 及 其 他 算法 的 mAP 
本 文 算法 及 相关 算法 mAP 
文献 [21] 69.2% 
文献 [22] 76.4% 
文献 [23] 73.7% 
文献 [24] 72.3% 
文献 [25] 75.1% 
文献 [10] 72.1% 
原 Faster R-CNN 模型 76.4% 
YOLO 67.3% 
SSD 76.8% 


表 2 两 种 改进 的 融合 模型 与 原 融合 模型 的 mAP 
融合 模型 mAP 
融合 模型 77.2% 
添加 BN 层 的 融合 模型 78.5% 
含 三 层 残 差 块 的 融合 模型 78.9% 
从 表 中 可 以 看 出 ,添加 了 BN 层 的 融合 模型 的 mAP 较 原 融 


合 模 型 有 了 一 定 的 提升 ， 达 到 了 78.5%， 表 明 原 融合 模型 中 存 
在 轻微 的 “梯度 消失 ”或 “梯度 爆炸 ”问题 ， 而 添加 的 BN 层 
在 一 定 程度 上 解决 了 该 问题 。 包 含 三 层 扩张 卷 积 残 差 块 的 融合 
模型 识别 效果 最 好 ， 其 mAP 为 78.9%， 表 明 本 文 所 用 的 融合 
网 络 具 有 了 一 定 的 深度 ， 此 时 三 层 的 扩张 卷 积 残 差 块 在 分 类 任 
务 上 的 效果 优 于 两 层 的 扩张 卷 积 残 差 块 。 


5 HRA 


基于 DRN 网 络 在 分 类 上 的 优势 及 Faster R-CNN 网 络 在 目 
标 追 踪 上 的 精确 性 ， 本 文 将 DRN 网 络 部 分 的 扩张 卷 积 残 差 块 
引入 到 Faster R-CNN 网 络 中 代 蔡 原 网 络 中 的 共享 卷 积 层 部 分 ， 
形成 一 个 融合 网 络 。 在 该 融合 模型 的 基础 上 又 提出 了 两 种 改进 
的 融合 模型 添加 BN 层 的 融合 模型 及 包含 三 层 扩张 卷 积 残 差 
块 的 融合 模型 ,实验 结果 表明 三 种 融合 模型 在 分 类 指标 mAP 上 
均 高 于 原 Faster R-CNN 模型 及 应 用 该 数据 库 的 其 他 行为 识别 
算法 ， 其 中 ， 包 含 三 层 扩张 卷 积 残 差 块 的 融合 模型 取得 了 最 高 
HJ mAP, 73 78.9%。 但 本 文 提 出 的 融合 模型 在 检测 速度 上 略 有 
欠缺， 仅 能 达到 每 秒 五 帧 左右 ， 而 YOLO 和 SSD 算法 均 能 达 
到 每 秒 45 帧 及 58 帧 左右 。 因 此 ， 如 何在 保证 识别 效果 持续 提 
升 的 同时 ， 加 快 检测 速度 成 为 了 今后 的 主要 研究 方向 之 一 。 
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